#Rubin CPX
輝達拋棄 FLOPS:晶片價值改寫為 Token 經濟
9 月 10 日,輝達宣佈將在 2026 年底前推出全新人工智慧晶片 Rubin CPX。這是 Blackwell 平台的繼任者,被定位為“視訊生成與 AI 程式設計”的專用加速晶片。與傳統 GPU 最大的不同在於,Rubin CPX 高度整合了視訊解碼、編碼與推理功能。過去,生成一小時視訊所需的處理量高達百萬級 token,遠超常規 GPU 的處理邊界。Rubin CPX 的設計目標,就是為這種指數級增長的算力需求提供 專用解決方案。更引人注目的是,輝達首次公開了經濟模型:向 Rubin CPX 系統投入1 億美元,最高可帶來 50 億美元 token 收入;硬體價值不再是一次性出貨,而是與 AI 應用的 token 消耗直接掛鉤。一|技術路徑的三步走1|算力邊界突破Rubin CPX 內建的視訊流水線將推理吞吐提升至 Blackwell 的 3–4 倍,面向1 小時視訊 ≈ 100 萬 token 的處理量做專門最佳化。2|系統級整合通過整合解碼、編碼、推理,CPX 取消了 CPU 與外部加速器之間的資料搬運,平均延遲縮短 40%–50%。3|能源效率提升在同等算力下,CPX 的能耗比常規 GPU 下降 30%–35%,這是視訊場景下能否規模化部署的關鍵。二|三個關鍵訊號🔍1|AI 視訊生成已成算力新高地視訊生成和 AI 程式設計是未來最消耗算力的兩大場景。視訊的處理量比文字/圖像高一個數量級,未來 AI 的增長曲線幾乎註定將在視訊領域展開。🔍2|資本邏輯正在轉向 token 維度過去,晶片的價值以 FLOPS 衡量。如今,Rubin CPX 把“投入產出比”直接對應到 token 消耗 = 現金流。這讓晶片廠商從硬體銷售變成持續的 token 分成,是資本市場更願意買單的模式。🔍 3|AI 晶片敘事全面升級輝達從 GPU 性能 → 雲算力租賃 → token 經濟回報,不斷迭代敘事。未來誰能承接更多的 token 消耗,誰就佔據 AI 基礎設施的制高點。三|市場觀察Rubin CPX 不只是一次硬體迭代,而是一次 商業邏輯的躍遷。它揭示了未來幾年晶片價值的核心:不再僅取決於算力極限;而在於 能否把 AI 應用的 token 消耗轉化為可見的現金流。換句話說,誰能把 token 經濟效應嵌入晶片,誰就有機會主導下一輪 AI 基建的資本溢價。四|資本市場的故事切換對投資者而言,這不僅是技術與商業模式的更新,更可能改變資本市場對輝達的估值框架。Rubin CPX 可能意味著輝達的收入模型,從過去的 一次性硬體銷售,逐步轉向 類訂閱的持續分成模式:硬體出貨只是起點,真正的價值在於 token 消耗帶來的長尾收益;這種模式讓輝達更像一家 “雲服務+軟體平台” 企業,而不是傳統半導體公司;對資本市場而言,這相當於從周期性硬體估值 轉向穩定現金流的 SaaS 估值,敘事天花板被再次抬高。這就是 Rubin CPX 背後更大的金融含義:輝達不只是在賣晶片,而是在賣“算力+現金流”的未來。一塊晶片,不止是算力的極限,而是現金流的起點。 (方到)
「一頁紙」講透產業趨勢之:Rubin CPX
這是一個非常「有錢景」的方向,我會借助 AlphaEngine 的幫助,幫你跨越產業趨勢研究的資訊鴻溝,每天挖掘一個財富密碼。今天的主角是:Rubin CPX,AI產業變革下一個核心驅動力。點選下方▶️按鈕收聽👇👇(1)Rubin CPX:AI產業進入“長上下文時代”的里程碑輝達近日發佈了一款專為長上下文場景設計的GPU——Rubin CPX。這款晶片旨在顯著提升AI推理效率,尤其適用於程式設計、視訊生成等需要處理超長上下文窗口的應用領域。Rubin CPX計畫於2026年底正式上市,市場定位是專為處理百萬級token長上下文AI推理而設計的關鍵基礎設施,旨在將AI算力正式推向Exascale(百億億次)時代。該產品的市場吸引力已得到初步驗證,包括Cursor(AI程式設計)、Runway(視訊生成)及Magic(AI程式設計)在內的多家前沿AI企業已率先採用該技術。Rubin CPX的推出可視為推動AI產業進入“長上下文時代”的里程碑事件,其核心價值在於通過架構創新為AI推理的規模化部署掃清了經濟性與效率障礙,為長上下文AI應用的商業化落地提供了高性價比的基礎設施。基於Rubin CPX的顛覆性設計,我們預見AI產業鏈將迎來深刻變革,一個全新的AI應用紀元正拉開序幕。1)上游供應鏈將迎來結構性增長:能夠滿足Rubin CPX嚴苛技術要求的供應商將獲得顯著優勢。例如,在PCB領域,對40層以上、採用M9級材料的高階伺服器板及HDI技術的需求將激增,為具備相關技術儲備的頭部廠商帶來確定性訂單。2)下游AI應用範式將被重塑:百萬級token的處理能力將徹底改變AI應用形態,AI編碼助手將從簡單的程式碼補全工具進化為能夠理解和重構整個複雜軟體項目的“AI架構師”,而視訊生成、藥物研發和企業知識庫問答等領域也將因上下文長度的突破而開啟新的可能性。(2)Rubin CPX的核心技術創新:解耦推理Rubin CPX的核心創新在於其獨特的解耦推理(Decoupled Inference)技術,該技術首次將大語言模型的推理流程從物理上分解為兩個獨立的階段:上下文處理(Prefill/Context)和生成(Decode/Generation)。傳統架構在單一硬體上執行這兩個特性迥異的任務,導致資源錯配與效率瓶頸。解耦架構則為每個階段匹配專用硬體:1)上下文處理階段:此階段計算密集(Compute-Intensive),需要大規模平行處理能力來消化海量輸入。Rubin CPX專為此設計,採用“胖計算、瘦頻寬”的理念,使用GDDR7來最大化算力利用率。2)生成階段:此階段頻寬密集(Bandwidth-Intensive),每個Token的生成都極度依賴記憶體訪問速度。該任務由標準的、配備高頻寬記憶體(HBM)的Rubin GPU(如R200)承擔,確保低延遲輸出。通過這種專用化分工,解耦推理架構實現了對計算和記憶體資源的精準調配,從根本上解決了傳統同構架構的效率天花板問題。Rubin CPX的解耦推理架構在處理流程、硬體瓶頸和記憶體策略上,與以GB300為代表的傳統同構架構形成了鮮明對比,其專用化設計帶來了革命性優勢。*註:由FinGPT Agent作表,原表請登錄AlphaEngine(3)Rubin CPX的關鍵性能參數Rubin CPX作為NVIDIA首款專為海量上下文AI推理設計的CUDA GPU,其單晶片及其組成的Vera Rubin NVL144 CPX平台在算力、記憶體、功耗及成本效益上均實現了對現有架構的顛覆性突破。以下是其核心技術規格與上一代旗艦GB300 NVL72的量化對比分析:*註:由FinGPT Agent作表,原表請登錄AlphaEngine從經濟效益的角度來看,Rubin CPX相比上一代架構,將帶來以下幾點變化:性能與成本的極致最佳化:Rubin CPX通過採用單片式設計,成功規避了當前先進封裝領域面臨的CoWoS產能瓶頸,這不僅保障了其在2026年的規模化量產能力,更帶來了顯著的成本優勢。其生產成本僅為同期旗艦訓練晶片R200的25%,卻能實現其60%的計算能力。同時,選用成本較HBM低50%以上的GDDR7視訊記憶體,進一步強化了其在推理市場的經濟性。平台級性能的指數級躍升:Vera Rubin NVL144 CPX平台通過異構協同,將AI性能推向了前所未有的8 EFLOPS(NVFP4精度),相較於上一代GB300 NVL72系統實現了7.5倍的性能飛躍。特別是在大模型推理的關鍵瓶頸——注意力機制處理上,其速度提升了3倍,這意味著處理百萬token級長上下文的效率和可行性得到了根本性改善。卓越的投資回報:基於其顛覆性的性能和成本結構,Rubin CPX展現出極高的經濟效益。據測算,在規模化營運下,其投資回報率(ROI)可高達30至50倍。具體而言,每1億美元的資本投入,預計可產生高達50億美元的token服務收益,這為資料中心和雲服務商提供了極具吸引力的TCO(總擁有成本)模型,預示著其將快速滲透至長上下文推理市場。(4)Rubin CPX對AI全產業鏈的深遠影響Rubin CPX的推出對AI產業鏈帶來了全方位的技術革新,催生了大量投資機遇,這裡我從“資料中心與液冷”、“PCB及原材料”、“AI應用”這三個角度展開。1)資料中心與液冷:Rubin CPX正強力推動伺服器架構向高密度、模組化的分解式設計(Disaggregated Design)演進,重塑AI計算基礎設施。其核心體現於Vera Rubin NVL144 CPX平台,該平台在單機架內實現了144個 Rubin CPX、144個Rubin GPU和36個Vera CPU的超高密度整合,樹立了行業算力密度的新標竿。這種分解式架構通過硬體專用化,將推理流程中計算密集的上下文處理(Prefill)與記憶體頻寬密集的生成(Decoding)階段分離,分別由CPX和標準Rubin GPU高效執行,實現了計算資源的精準匹配與利用率最大化。與此同時,Rubin CPX單晶片高達800W的功耗對資料中心的散熱與電源系統構成了嚴峻挑戰,傳統風冷方案已無法滿足散熱需求,這使得先進液冷技術(如直接液體冷卻DLC)的規模化普及成為必然趨勢,以確保系統穩定運行並最佳化能源效率(PUE)。巨大的單機架功耗需求也倒逼電源管理系統向更高效率和更高功率密度演進。這不僅涉及伺服器內部的電源架構,也涵蓋了從機架配電單元(PDU)到整個資料中心供電鏈路的全面升級,以支援未來AI叢集的龐大能源消耗。2)PCB及上游原材料:Rubin CPX技術規格的躍升正驅動上游關鍵材料需求的確定性放量。為滿足PCIe Gen 6等高速訊號傳輸的完整性要求,M9等級的超低損耗覆銅板材料已成為剛性需求。產業鏈向上游追溯,為實現超低損耗目標,石英布、 HVLP(極低輪廓)銅箔等高端材料的應用將從利基市場走向規模化普及。此外,承載Rubin CPX晶片本身的PCB預計將採用HDI(高密度互連)技術,進一步提升了PCB的設計複雜度和製造門檻,並帶來純粹的增量市場。這一趨勢已在頭部廠商的資本支出計畫中得到印證。以臻鼎為代表的PCB龍頭廠商規劃在2025-2026年投入的資本支出中,高達50%將明確用於高 階AI伺服器PCB的產能擴張,為即將到來的材料需求激增提前佈局。3)下游AI應用Rubin CPX將對AI應用帶來深遠的影響。首先,超長上下文將成為“標配”。128 GB GDDR7 + 30 PFLOPS NVFP4 的專用算力,讓單卡即可一次性載入 >1 M token 的程式碼或 1 小時視訊,無需再靠分片、滑動窗口等“折中”方案,直接把“整庫級”程式碼理解、長視訊連貫生成推向實用。其次,推理成本驟降,催生新商業模式。與旗艦 GB300 NVL72 相比,同樣長上下文任務性能最高提升 6.5 倍,而硬體成本更低(GDDR7 替代昂貴 HBM)。根據輝達官方測算,1 億美元新裝置可帶來 50 億美元 token 收益,ROI 達 30–50 倍,為 SaaS 平台按“百萬 token 幾分錢”收費提供了利潤空間。再次,“整庫級”AI 應用將成為主流。比如在Coding領域,Cursor、Magic等已計畫把整倉程式碼塞進模型,實現跨檔案重構、庫級問答,程式設計助手從“補全”升級為“架構師”。在視訊領域,Runway 等可在單卡完成 60 min 1080p 視訊生成,無需分段,保證情節、角色一致性。在科研/法律/金融等領域,百萬級 token 的論文、判例、財報一次性載入,多步推理即可在分鐘級完成,長文深度問答、自動研報進入可商用階段。一輪新的AI技術革命,正在滾滾而來。 (Alpha Engineer)
輝達Rubin CPX 的產業鏈邏輯
今天幾乎是被輝達Rubin CPX的這個新聞刷屏了,但白天太忙,晚上回來才有時間好好看看SemiAnalysis的這篇報告。在文章後半段,我們會簡單分析Rubin CPX利多的兩個方向。AI 推理的兩難困境想明白Rubin CPX 的價值,得先知道AI 大模型推理時的一個關鍵矛盾:預填充(prefill)和解碼(decode)這兩個階段,對硬體的需求完全是反的。在我們之前的一次分析華為的Cloud Matrix 384中光模組用量的直播中,講到過Prefill和Decode的區別:在Prefill階段特別吃計算能力,但對記憶體頻寬的需求很低;而接下來的Decode,模型要基於第一個token 不斷生成後續內容,這時候就不怎麼需要計算了,反而得靠高記憶體頻寬快速調取之前的KV 快取資料。過去的問題是,大家都用同一種GPU(例如輝達的R200)來跑這兩個階段。結果在跑預填充時,R200 上那些昂貴的HBM 記憶體(高頻寬、高成本)根本用不上,頻寬利用率較低,相當於花大價錢買了個頂配跑車,結果只用來買菜;跑解碼時,又覺得計算能力過剩,記憶體頻寬不夠用。這種通用的硬方案,不僅浪費錢,還拖慢了整體效率。輝達顯然看透了這一點,於是Rubin CPX 來了, 一款專門為預填充階段量身定做的加速器,目標只有一個:把該省的錢省下來,該用的性能拉滿。Rubin CPX構型的精打細算先看核心參數,跟R200的差距不小,不僅HBM換成了GDDR7,視訊記憶體的容量、頻寬都顯著降低,還有個明顯的區別就是NVLink換成了PCIe Gen6,所以serdes的速率也從224G降到到了64G。(感謝星球中球友的提醒,上面這個圖中的某些參數是不對的,不知道大家有沒有看出來)雖然性能下降了很多,但性價比卻提到了--成本降低了更多。Rubin CPX 的BOM 成本(物料清單成本)只有R200 的25%,但能提供R200 60% 的運算能力。HBM 記憶體因為頻寬高,一直是高階GPU 的標配,但價格也貴得離譜,佔GPU BOM 成本的比例越來越高(從A100 的35% 漲到GB300 的51%)。而Rubin CPX 用的GDDR7,雖然頻寬不如HBM4,但成本直接砍了80%,還不用像R200 那樣搞複雜的CoWoS 封裝,這兩下一省,成本自然就下來了。更重要的是,它沒浪費性能。前面說過,預填充階段記憶體頻寬利用率極低,而Rubin CPX 因為頻寬剛好夠用,利用率反而提高了很多。同樣跑一個預填充任務,R200 每小時要浪費0.9 美元的TCO(總擁有成本),而Rubin CPX 只浪費0.16 美元—— 長期下來,對資料中心來說就是一筆巨款。Oberon 機架光有好晶片還不夠,輝達這次連機架都一起升級了—— 推出第三代Oberon 架構機架(叫Vera Rubin 系列),包含三種型號:VR200 NVL144、VR200 NVL144 CPX、Vera Rubin CPX 雙機架。這次的機架解決了前兩代(GB200/GB300)的幾大痛點。1. 無電纜設計之前的GB200 機架用的是電纜+ PCB的連接方式,飛線又多又亂,裝配時容易壞,還佔空間,導致每個計算托盤裡塞不下太多晶片。這次Rubin 系列直接搞了無電纜設計:用Amphenol 的板對板連接器,配合中間的PCB 中板,所有訊號都走電路板,沒有一條飛線。好處很明顯:一是故障點少了,可靠性提升;二是空間省出來了。例如VR200 NVL144 CPX 機架,每個計算托盤裡能塞4 個R200 GPU + 8 個Rubin CPX + 2 個Vera CPU,整個機架算下來有396 個計算和網路晶片,密度比前兩代高了一大截。2. 全液冷方案AI 晶片越密集,散熱就越頭痛。前兩代機架是85% 液冷+ 15% 風冷,對付低功率還行,但這次VR200 NVL144 CPX 機架的功率預算直接衝到了370kW(相當於200 多台家用空調的功率),風冷根本扛不住。於是輝達乾脆上了100% 全液冷,還搞了個三明治設計:把Rubin CPX 和CX-9 網路卡的PCB 板疊在一起,中間夾一個共享的液冷冷板,兩邊的熱量都能快速導走。這樣一來,即使每個計算托盤裡的晶片總功率到7040W,也能穩穩壓住,不會因為過熱降頻。3. 靈活擴展如果已經買了之前的VR200 NVL144 機架,不想全換怎麼辦?輝達給了Vera Rubin CPX 雙機架方案—— 你可以單獨加一個VR CPX 機架(裡面全是Rubin CPX),通過InfiniBand 或乙太網路連到原有叢集裡,不用非得挨著放。這樣就能依照自己的業務需求,靈活調整預填和解碼的比例,例如業務裡預填充任務多,就多加點CPX 機架,非常方便。產業震動輝達這波操作,最慌的應該是AMD、Google、AWS 這些競爭對手。 SemiAnalysis的報告中的說法是:輝達和對手的差距,已經從鴻溝變成峽谷了。先看AMD,之前AMD 剛發佈MI400 機架,號稱記憶體頻寬19.8TB/s,能和輝達掰掰手腕,結果輝達反手就把R200 的記憶體頻寬提到20.5TB/s,還出了Rubin CPX。現在AMD 不僅要繼續最佳化MI400 的軟體棧,還得緊急加錢開發自己的預填充專用晶片,可能之前的規劃的Roadmap都要打亂了。再來看Google和AWS。 Google的TPU 雖然有3D Torus 網路的優勢(最大能搞9216 個TPU 的大叢集),但現在也得趕緊開發預填充專用晶片,不然內部用起來成本太高;AWS 的Trainium3 機架,原本想用自己的EFA 網路卡,結果發現VR200 NVL1444X 機架,根本沒有用地方交換機連起來,麻煩又費錢。最慘的是那些做定製ASIC 晶片的公司,本來就比輝達慢一步,現在輝達又在硬體專用化上開了頭,這些公司要麼跟著做預填充、解碼專用晶片,要麼就只能在成本上被輝達壓著打未來報告裡還提到了兩個未來的可能性,蠻有趣:1. 解碼專用晶片既然預填充能做專用晶片,解碼為什麼不行? SA推測,輝達可能會搞一款解碼專用晶片—— 跟Rubin CPX 反過來,少點計算能力,多堆記憶體頻寬。例如把R200 的計算晶片縮小,保留HBM 介面和I/O 晶片,這樣成本能再降一波,而且能效會更高。2. GDDR7 的春天Rubin CPX 用了GDDR7,加上之前RTX Pro 6000 也用,GDDR7 的需求會暴漲。 SA認為,三星因為產能充足,已經拿到了輝達的大訂單,而SK 海力士和美光因為忙著生產HBM,沒太多產能做GDDR7,所以接下來三星在GDDR7 市場可能會賺一波。產業鏈的邏輯VR NVL144 CPX Compute Tray長下面這個樣子:以下是輝達官方圖中標出的重要組成::PCB首先就是多出來一些CPX的板卡,當然PCB的用量也會上去。而且從上面SemiAnalysis的圖中也可以看出,在VR200中,將採用透過midplane實現內部「無電纜設計」。在GB200中,CX7 直接放置在Bianca 板之上,並用線纜連接BlueField 與OSFP cages,而VR200 用midplane取代tray內部線纜,以連接Bianca board、CX9 與BlueField。對VR200 來說,根據目前業內給的資料,僅供參考。預計每個NVL144 需要18 個midplane(每個compute tray一個),很有可能midplane將用44層PTH PCB,採用台光的896K3 M9 CCL,Switch則採用896K2(low-DK 2+HVLP 4)。預計輝達每GPU 的PCB 價值量將從GB200 的約400 美元提升至VR200 的約900 美元,。液冷我們上面也提到液冷的方案,現在還沒法測算具體的價值量。但可以明確的是,每增加一顆CPX晶片,都需要配一塊冷板,同時還會拉動轉接器的需求,而且隨著機櫃功率的提升,CDU和管路的需求也同步增加。 (梓豪談芯)
感謝您的好文章!!!
算力怪獸!NVIDIA Rubin CPX及液冷伺服器發佈!
9月10日輝達又放AI計算大招,推出專為長上下文推理和視頻生成應用設計的新型專用GPU——NVIDIA Rubin CPX。Rubin CPX基於NVIDIA Rubin架構建構,採用經濟高效的單晶片設計,配備128GB GDDR7記憶體,採用NVFP4精度,並經過最佳化,算力可達30PFLOPS,能夠為AI推理任務,尤其是長上下文處理(超過100萬個token)和視訊生成,提供了遠超現有系統的性能和token收益。與輝達GB300 NVL72系統相比,這款專用GPU還提供了3倍更快的注意力機制,從而提升了AI模型處理更長上下文序列的能力,而且速度不會降低。Rubin CPX與全新NVIDIA Vera Rubin NVL144 CPX平台中的輝達Vera CPU和Rubin GPU協同工作,進行生成階段處理,形成一個完整的高性能分解式服務解決方案。Vera Rubin NVL144 CPX平台可在單機架整合144張Rubin CPX GPU、144張Rubin GPU、36張Vera CPU,提供8EFLOPS的AI性能(NVFP4精度)和100TB的快速記憶體,記憶體頻寬達到1.7PB/s。其AI性能是輝達Vera Rubin NVL144平台的2倍多,是基於Blackwell Ultra的GB300 NVL72機架式系統的7.5倍。從液冷視角來看,NVL144CPX平台整合的Rubin晶片數量更多,單伺服器整合8塊Rubin晶片,對冷板和UQD的需求將會成倍增長,同時對於高功率的CDU需求也會上升。輝達首席財務官科萊特·克雷斯 (Collette Cress) 表示,公司代號為 Rubin 的下一代資料中心級 GPU 和代號為 Vera 的 CPU 已完成流片並進入“晶圓廠”生產階段,這意味著它們的晶片目前由台積電 (TSMC) 生產。該公告表明,輝達面向 AI 的下一代資料中心平台有望於 2026 年推出。科萊特·克雷斯 (Collette Kress) 在公司與財務分析師和投資者的財報電話會議上表示:“Rubin 平台的晶片已投入生產。Vera CPU、Rubin GPU、CX9 Super NIC、NVLink 144 縱向擴展交換機、Spectrum X 橫向擴展和橫向擴展交換機,以及(用於共封裝光學器件的)矽光子處理器。Rubin 平台仍按計畫於明年實現量產。”該晶圓廠擁有 Rubin NVL144 機架規模平台的所有晶片,表明它們已經通過了重要的流片階段,Nvidia 目前正在實驗室中等待它們,以驗證它們是否符合其性能、功耗、成本和其他目標。 (零氪1+1)
輝達深夜突放大招,全新GPU為長上下文推理而生
效率最高可達現有旗艦機架的7.5倍。輝達於9月9日正式發佈了一款專為處理海量上下文而打造的新型GPU——NVIDIA Rubin CPX,旨在“以前所未有的速度和效率,賦能百萬級Token的軟體編碼、生成式視訊等複雜AI任務。”這款專用處理器將與NVIDIA Vera CPU及下一代Rubin GPU協同工作,共同構成全新的NVIDIA Vera Rubin NVL144 CPX整合平台。該平台在單個機櫃內即可提供高達8 exaflops的AI算力,性能是當前NVIDIA GB300 NVL72系統的7.5倍,並配備100TB高速記憶體和每秒1.7 PB的記憶體頻寬,為AI推理設定了全新基準。NVIDIA創始人兼首席執行官黃仁勳在發佈會上表示:“Vera Rubin平台將標誌著AI計算前沿的又一次飛躍。正如RTX徹底改變了圖形和物理AI,Rubin CPX是首款專為海量上下文AI打造的CUDA GPU,在這種場景下,模型可以一次性對數百萬token的知識進行推理。”為解決推理瓶頸而生:分解式推理架構與專用加速輝達表示,推理已成為人工智慧複雜性的新前沿。現代模型正演變為能夠進行多步推理、擁有持久記憶體和長上下文的智能體系統,使其能夠處理軟體開發、視訊生成和深度研究等領域的複雜任務。這些工作負載對基礎設施提出了前所未有的要求,在計算、記憶體和網路方面引入了新的挑戰,需要我們從根本上重新思考如何擴展和最佳化推理。在這些挑戰中,為特定類別的工作負載處理海量上下文變得日益關鍵。例如,在軟體開發中,AI系統必須對整個程式碼庫進行推理,維護跨檔案的依賴關係,並理解程式碼倉庫等級的結構——這正將編碼助手從自動補全工具轉變為智能協作者。同樣,長視訊和研究應用要求在數百萬token中保持持續的連貫性和記憶。這些需求正在挑戰當前基礎設施所能支援的極限。輝達認為,AI推理主要分為兩個階段:上下文階段(Context Phase)和生成階段(Generation Phase)。前者是計算密集型,需要高吞吐量處理海量輸入資料;後者是記憶體頻寬密集型,依賴高速資料傳輸逐個生成token。為最佳化效率,NVIDIA採用了“分解式推理”架構,將兩個階段交由最適合的硬體獨立處理。而NVIDIA Rubin CPX正是為加速計算密集的“上下文階段”而設計的專用解決方案。它採用高成本效益的單片式晶片設計,提供高達30 petaflops的NVFP4精度算力,配備128GB GDDR7記憶體,並將注意力(attention)功能速度提升至GB300 NVL72的三倍。此外,它還在單晶片上整合了視訊編解碼器和長上下文推理處理功能,極大地提升了視訊搜尋、高畫質視訊生成等應用的性能。NVIDIA指出,通過這種專用硬體,企業能夠以前所未有的規模創造價值,預計每投入1億美元資本,即可帶來高達50億美元的token收入。行業領導者積極擁抱,軟體生態全面支援新平台已獲得行業創新者的廣泛關注。AI程式碼編輯器開發商Cursor表示,Rubin CPX將帶來“閃電般的程式碼生成速度”,改變軟體開發模式。生成式AI公司Runway認為,新平台是“性能上的一次重大飛躍”,將幫助創作者在視訊工作中獲得前所未有的速度與真實感。致力於軟體工程自動化的AI研究公司Magic也指出,Rubin CPX能極大地加速其處理億級token上下文模型的計算工作負載。Rubin CPX將得到NVIDIA AI技術堆疊的全面支援,包括可高效擴展AI推理的NVIDIA Dynamo平台、NVIDIA Nemotron多模態模型系列以及包含NIM微服務的NVIDIA AI Enterprise企業級軟體平台。NVIDIA Rubin CPX平台預計將於2026年底正式上市。GB300 NVL72系統基準最新測試結果公佈在發佈未來架構的同時,NVIDIA於9月9日公佈的最新MLPerf Inference v5.1行業基準測試結果中,再次彰顯了其在當前AI推理領域的領導地位。本輪測試中,NVIDIA首次提交了基於全新Blackwell Ultra架構(通過GB300 NVL72系統)的成績,並立即刷新了所有新增基準測試的性能記錄,包括Llama 3.1 405B和Whisper等。尤其是在處理高達6710億參數的混合專家模型DeepSeek-R1時,Blackwell Ultra的單GPU性能達到了上一代Hopper架構的約5倍,實現了巨大的性能飛躍。這一成就得益於NVIDIA的全端最佳化能力,包括:廣泛應用NVFP4四位浮點格式進行加速、通過TensorRT-LLM等軟體庫實現先進的模型和KV快取量化,以及為複雜模型開發的全新平行技術。 (半導體產業縱橫)